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摘 E: 针对 目前 大 多 数 关系 抽取 中 对 于 文本 语 料 中 较 长 的 实体 共 现 句 ， 往 往 只 能 获取 到 局 部 的 特征 ， 并 不 能 学 习 
到 长 距离 依赖 信息 的 问题 ， 提 出 了 一 种 基于 循环 卷 积 神经 网 络 与 注意 力 机 制 的 实体 关系 抽取 模型 。 将 擅长 处 理 远 距 
离 依赖 关系 的 循环 神经 网 络 GRU 加 入 到 卷 积 神经 网 络 的 向 量 表示 阶段 , 通过 双向 GRU 学 习 得 到 词语 的 上 下 文 信息 
向 量 ， 在 卷 积 神 经 网 络 的 池 化 层 采 取 分 段 最 大 池 化 方法 ,在 获取 实体 对 结构 信息 的 同时 ， 提 取 更 细 粒 度 的 特征 信息 ， 
同时 在 模型 中 加 入 基于 句子 级 别 的 注意 力 机 制 。 设 计 了 在 NYT 数据 集 的 实验 验证 ， 实 验 结 果 表 明 提 出 方法 能 有 效 
提高 实体 关系 抽取 的 准确 率 与 召回 率 。 
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Relation extraction based on recurrent convolutional neural network 
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College of Joint Logistics National Defence University, Beijing 100091, China) 


Abstract: Most of the relation extraction approaches could not learn the long distance dependence information from the 
long sentences with entity co-occurrence. This paper proposes a new relation extraction model to solve this problem. This 
model was based on the recurrent convolutional neural network and the sentence-level attention mechanism. It used the 
Bi-GRU neural network to learn context vectors for words. And it adopted the piecewise maximum pooling method, which 
could obtain fine grained features. This paper conducted experiments on the NYT dataset. Experimental results demonstrate 
that the proposed method outperforms the baseline systems. 
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局 限 性 ， 本 文 主 要 研究 基于 循环 卷 积 神经 网 络 与 注意 力 机 制 
的 实体 关系 抽取 方法 ， 通 过 结合 循环 神经 网 络 和 卷 积 神经 网 
更 得 方 ”” 络 ， 并 加 入 注意 力 机 制 的 方法 来 提高 实体 关系 抽取 的 效果 。 
针对 简单 卷 积 神经 网 络 不 能 学 习 长 距离 依赖 信息 的 问 
reebaseLl、DBpediaD、YAGOGI 等 知识 库 的 建立 ， 在 NLP ” 题 ， 本 文 提出 将 擅长 处 理 远 距离 依赖 关系 的 循环 神经 网 络 
任务 中 得 到 广泛 的 应 用 。 在 该 背景 下 ， 以 从 非 结 构 化 自然 语 ”GRU 加 入 到 卷 积 神经 网 络 的 向 量 表示 阶段 。 针 对 普通 最 大 池 
言 文本 中 ， 提 取出 结构 化 信息 为 目标 的 信息 抽取 技术 应 运 而 ”化 无 法 捕获 两 个 实体 间 结 构 信息 的 问题 ， 本 文 提出 在 卷 积 神 
生 。 信 息 抽 取 的 内 容 主 要 包括 命名 实体 、 关 系 和 事件 三 类 。 经 网 络 的 池 化 层 采取 分 段 最 大 池 化 方法 。 在 池 化 阶段 ， 以 两 
实体 关系 抽取 任务 作为 信息 抽取 的 子 任务 之 一 ， 近 些 年 来 一 个 实体 为 分 隔 点 ， 将 整个 句子 向 量 划 分 为 三 段 ， 分 别 对 每 一 
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引言 
互联 网 的 飞速 发 展 ， 在 带 来 海量 数据 的 同时 ， 
便 快 捷 提 取出 有 效 信息 这 一 需求 变 得 愈加 
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直 是 学 术 界 和 工业 界 的 研究 热点 , 对 于 信息 检索 、 自 动 问答 、 ”上段 进行 最 大 池 化 操作 ， 之 后 再 将 三 个 池 化 向 量 拼接 到 一 起 。 

智能 推荐 等 前 沿 领域 都 具有 重要 的 意义 。 本 文 提 出 在 关系 抽取 模型 中 加 入 基于 句子 级 别 的 注意 力 机 
传统 的 实体 关系 抽取 方法 需要 人 工 设计 特征 、 标 注 语 料 ， ” 制 ， 提 高 实体 关系 抽取 的 准确 率 。 

耗费 大 量 时 间 及 人 力 ， 特 征 的 选择 直接 影响 到 关系 分 类 器 的 本 文 将 实体 关系 抽取 任务 看 做 多 分 类 问题 ， 研 究 结合 使 

最 终 效 果 ， 且 NLP 标注 工具 的 使 用 容易 导致 错误 传播 问题 。 用 


盾 环 神经 网 络 和 卷 积 神经 网 络 的 方法 ， 以 更 准确 地 对 实体 
的 关系 进行 分 类 ; 并 通过 增加 注意 力 机 制 来 提高 实体 关系 
以 


近 几 年 兴起 的 深度 神经 网 络 模 型 可 以 通过 深层 网 络 对 大 规模 间 
文本 语 料 自动 学 习 由 ， 卷 积 神经 网 络 因 其 优秀 的 特征 提取 能 
力 已 逐渐 被 用 于 实体 关系 抽取 任务 中 品 。 然 而 ， 对 于 文本 语 
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料 中 较 长 的 实体 共 现 句 ， 并 不 能 学 习 到 长 中 高 依 束 信 息 ; 并 | ST GRU_PONN MERJAN 
对 于 实体 关系 抽取 任务 而 言 ， 普 通 最 大 池 化 方法 虽然 可 以 本 文 提出 的 基于 循环 郑 积 神经 网 络 和 注意 力 机 制 的 关系 
提取 出 最 具 价 值 的 特征 信息 ， 但 却 无 法 捕获 两 个 实体 间 的 结 “抽取 方法 包括 三 个 阶段 :基于 双向 GRU 的 向 量 表示 阶段 
Hae 基于 PCNN 的 特征 学 习 阶 段 和 注意 力 权重 学 习 阶段 。 

针对 目前 实体 关系 抽取 中 简单 卷 积 神 经 网 络 提取 特征 的 将 原始 输入 句子 转换 为 相应 的 词 向 量 表示 ， 将 词 向 量 与 
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词 的 位 置 特征 拼接 作为 输入 层 的 输入 ， 句 子 输入 后 经 过 ”” 征 向 量 P(w)=[di,ds] 。 
Bi-GRU 层 学 习 远 距离 依赖 信息 ,将 GRU 的 输出 作为 PCNN ” 1.1.3 基于 Bi-GRU 的 上 下 文 信息 向 量 表示 
的 输入 ， 经 过 PCNN 的 特征 学 习 后 ， 通 过 句子 级 别 的 注意 力 循环 神经 网 络 (RNN) 因 其 擅长 刻画 文本 序列 的 特性 被 
机 制 来 减少 远程 监督 带 来 的 噪声 影响 。 最 后 ， 通 过 softmax ”用 于 许多 自然 语言 处 理 任务 中 ， 并 取得 了 不 错 的 研究 效果 。 
进行 归 一 化 处 理 。 本 文 提出 的 模型 如 图 1 所 示 。 然而 ， 梯 度 消失 使 得 RNN 很 难 学 习 到 句子 中 的 远 距 离 依赖 
输入 层 .. that Earl Woods , the father of Tiger Woods , had... aR. TH, 擅长 学 习 远 距 离 依赖 信 Ake HI N 
y LSTM 被 提出 00。LSTM 通过 三 个 门 的 操作 对 已 学 习 到 的 序 
T o 上 文 信息 ) raoa) 列 信息 实现 记忆 与 忘记 功能 。 其 中 ， 遗 忘 门 负 责 决定 上 一 时 
Lo 9000 向量 O J 刻 学 习 到 的 信息 保留 多 少 到 当前 时 刻 ; 输入 门 负责 决定 当前 
ae t S 时 刻 的 输入 保留 多 少 用 于 当前 时 刻 的 学 习 ; 输出 门 则 负责 决 
向 量 表 示 600000 词 向 量 E 定 输出 多 少 当前 时 刻 学 习 到 的 信息 。GRU (gated recurrent 
eas H unit) 是 Cho 等 人 002014 年 提出 的 循环 神经 网 络 模型 ， 是 对 
oo moe ae FEEN LSTM 复杂 网 络 结构 进行 简化 的 一 种 变 体 。GRU 模型 将 
oe tee až j 后 向 GRU 层 LSTM 模型 中 遗 筷 门 和 输入 门 合 并 成 单一 的 更 新 门 ， 研 究 表 
Irac. S 明 GRU 在 模型 参数 减少 的 情况 下 可 以 获得 比 LSTM 更 好 的 
00000 位 置 向 量 P 效果 040。 因 此 ， 本 文 使 用 GRU 模型 来 学 习 词语 的 上 下 文 信 
NS O Oo Oo oO J » a. 
ERE t GRU 模型 中 包含 两 个 门 : 重 置 门 和 更 新 门 , 即 图 2 中 的 
(32338888) nA a 。 对 于 句子 中 的 词语 mw, 学习 其 上 文 信息 向 量 0) 时， 
VO 2990209 需要 用 到 上 一 个 词语 的 分 布 表示 向 量 和 上 文 信息 向 量 
池 化 层 J e(wa) s 9 (wa)， 则 模型 各 部 分 的 计算 公式 分 别 为 
4 o0o0 0 00 0 ) 7 =0(W, [c (wi);e(w))]) (1) 
图 1 GRU_PCNN 模块 2) =6(W.0 [c (wia)se(wia)) (2) 
Fig. 1 GRU_PCNN module ; ‘eal 
1.1 基于 GRU 的 向 量 表示 ¢,(w,) = tanh(W, [70 -c (wi);e(w)]) (3) 
基于 GRU 的 向 量 表示 阶段 主要 负责 将 原始 输入 句子 转 l 
Ji E x i 5 de co (w)= (1-2) *q (wa) +z *c (w) (4) 
换 为 神经 网 络 需要 的 向 量 形式 ， 以 便 进 行 后 续 的 特征 提取 等 


一 系列 学 习 操 作 四。 目前 的 实体 关系 抽取 任务 中 ， 大 多 采用 其 中 ，[aCw_jie(w] 是 对 向 量 sCw ,) 和 e(w ) 进行 拼接 。 计 
词语 的 分 布 表示 一 一 词 向 量 作 为 神经 网 络 的 输入 。 本 文 在 使 。 算 句 子 第 一 个 词语 的 上 文 信息 向 量 时 需要 用 到 oo) 和 
用 词 向 量 的 同时 加 入 词语 的 位 置 向 量 ， 获 取 词 语 与 实体 间 的 。 “el(w) ， 本 文 在 初始 化 时 将 它们 都 设 定 为 零 向 量 。 WO, Wo, 
相对 位 置信 息 为 模型 提供 更 多 的 特征 。 此 外 ， 本 文 所 出 将 御 cay — a -eamey arte. pgs Lester ety RL 

环 神经 网 络 加 入 到 向 量 表示 阶段 ， 借 助 循环 神经 网 络 的 “ 记 “分 别 为 三 个 公式 的 权重 甜 隆 , 因 参 与 计算 的 向 量 是 拼接 而 
IZ” 能力 来 刻画 上 下 文 特征 向 量 ， 将 更 丰富 的 特征 提供 给 关 “成 的 ， 所 以 权重 矩阵 在 学 习 时 也 是 分 开 的 ， 即 


系 抽 取 模 型 。 本 文 所 说 的 “词语 ” 不 只 包括 单纯 的 一 个 单词 ， WO =W,0 +W,0 (5) 
还 包括 实体 词语 ， 如 “Tiger Woods” 便 是 一 个 人 名 实体 词语 。 WO = 网 O+ 了 0 (6) 
1.1.1 词 分 布 表示 W =W +W., 7) 

词 分 布 表示 (distributed representation) 是 基于 分 布 假说 
中 “词语 的 上 下 文 分 布 决 定 词语 的 语义 ”这 一 思想 ， 通 过 对 其 中 : 5 表示 sigmoid 函数 ， 其 结果 介 于 0~1。 对 于 重 置 门 ， 
词语 的 上 下 文 建 模 来 构造 包含 语义 信息 的 词 分 布 表 示 向 量 。 当 sigmoid 函数 结果 非常 接近 0 时， 表示 上 文 信息 将 被 忽视 ， 
词 分 布 表示 ， 也 称 为 “ 词 向 量 ”“ 词 坐 入 ”， 其 基本 方法 是 通 当前 输入 信息 被 重 置 。 这 样 的 设 定 可 以 帮助 人 们 舍弃 无 关 信 
过 模型 的 训练 将 文本 中 每 个 词语 映射 到 一 个 新 的 空间 ， 并 以 息 ， 得 到 更 简洁 、 更 有 价值 的 向 量 表示 。 更 新 门 的 主要 作用 
高 密度 、 低 维度 的 连续 实数 向 量 进行 表示 。 对 于 一 个 包含 t 是 控制 参与 当前 学 习 的 上 文 信息 数量 ， 它 可 以 帮助 模型 记忆 
个 词语 的 输入 句子 5=fw,w,…,w} ,每 个 词语 wv 将 被 转换 为 一 长 距离 依赖 信息 。 
个 必 维 度 的 实数 向 量 e(w) 。 ci(wi) 
1.1.2 位 置 特征 表示 dwi O es 3 

在 关系 抽取 任务 中 ， 与 两 个 实体 距离 比较 近 的 词语 ， 其 
对 目标 关系 抽取 的 贡献 就 越 大 。 因 此 ， 本 文 在 向 量 表示 阶段 
引入 位 置 特征 入， 为 实体 关系 抽取 模型 提供 词语 的 位 置 结构 > 
言 息 ， 帮 助 模型 判断 目标 关系 词语 的 位 置 及 类 型 。 对 于 输入 o 5 anh 
AT S, 通过 计算 当前 词语 w 分 别 到 两 个 实体 head entity, tail O F 
entity 的 相对 距离 来 得 到 其 位 置 特 征 。 以 句子 “...spread that 
Earl Woods , the father of Tiger Woods , had... ”为 例 ， 实 体 词 e(wi-1) 
i “Earl Woods” il“ Tiger Woods ”分 别 是 该 句子 的 head entity 图 2 前 向 传播 GRU 模型 
和 tail entity， 词 语 “father” 到 这 两 个 实体 的 距离 分 别 为 3、 Fig.2 Forward propagation GRU model 
-2。 在 本 文 的 模型 中 ， 词 语 w 到 两 个 实体 的 相对 距离 会 被 映 2 所 展示 的 前 向 传播 GRU 模型 可 以 帮助 人 们 记忆 上 
射 转换 成 dr 维度 的 向 量 4、d, ， 然 后 组 合 得 到 词语 的 位 置 特 文 信息 ， 以 便 学 习 前 文中 的 远 距 离 依 赖 关 系 。 本 文 设计 的 向 
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量 表示 学 习 模块 不 仅 要 对 词语 的 上 文 信 息 进 行 记 忆 学 习 ， 还 价值 的 特征 ， 己 被 用 于 各 类 自然 语言 处 理 任务 中 。 然 而 对 于 
要 学 习 下 文 的 远 距离 依赖 信息 。 因 此 本 文 所 用 的 循环 神经 网 实体 关系 抽取 来 说 ， 最 大 池 化 策略 不 能 捕获 两 个 实体 间 的 结 
络 是 双向 GRU (Bi-GRU) 模型 ， 前 向 GRU a w 的 上 构 信 息 ， 并 且 无 法 提取 到 细 粒 度 的 特征 信息 。 因 此 ， 本 文采 
文 信息 向 量 a4(w), 后 向 GRU 用 于 学 习 下 文 信息 向 量 c(w) 。 用 分 段 最 大 池 化 方法 四， 以 两 个 目标 实体 为 分 隔 点 将 整个 句 
以 句子 “...spread that Earl Woods , the father of Tiger Woods , 子 划 分 为 三 段 ， 分 别 对 每 一 段 进行 最 大 池 化 操作 。 相 应 地 ， 
had...” 为 例 ， 词 语 “father” 的 上 文 信息 向 量 c(w) 是 对 其 左 每 一 个 卷 积 核 的 结果 向 量 6 会 被 分 为 三 段 {cu,c2,cs} ， 分 段 最 
边 文本 “...spread that Earl Woods, the” 学 习 记 忆 的 结果 ， 下 大 池 化 的 操作 可 以 表示 为 
文 信息 向 量 c (m) 是 对 该 词语 右边 文本 “of Tiger Woods , | | 

py=max(c;) 1<i<n,1<j<3 (16) 
had...” 学 习 记 忆 的 结果 。 

下 文 信息 向 量 的 学 习 与 前 文 类 似 , 只 是 其 输入 是 逆序 的 ， 之 后 将 三 个 池 化 向 量 结 合 到 一 起 得 到 向 量 
故 计算 时 先 对 最 后 一 个 词语 进行 下 文 信息 学 习 , 再 依次 往 前 ， P: ={Pa Pas Ps} 。 连 接 所 有 的 p 并 进行 非 线 性 函数 运算 ， 便 可 
计算 公式 如 下 : 得 到 池 化 层 的 最 终 输 出 向 量 为 

rO =0(W -[e, (wa);e(wn)]) (8) s=tanh( p, ) 7) 
a) =0(W0 -[e, (win);e(w)]) (9) E ser”. FY UA HET ARETE e EAE A ERE JE 
ee o go 已 经 成 为 一 个 与 原 句 子 长 度 无 关 的 固定 长 度 向 量 ， 
13 基于 句子 级 别 的 注意 力 机 制 
人 ay 13.1 注意 力 机 制导 
fo ee pee 基于 句子 级 别 的 注意 力 机 制 053 (attention) 层 ， 会 为 每 
oe i ， TEE 个 实体 共 现 名 学 习 注 意 力 值 ， 即 权重 。 正 确 表达 目标 关系 的 

相应 地 ,权重 甜 阵 W， 、W”、W 在 党 习 过 程 中 也 是 分 ”句子 将 获得 较 高 的 权重 ， 而 那些 被 错误 标注 的 句子 会 得 到 非 

FFA, BN 常 低 的 权重 。 
WO =W, + W, 9 (12) 对 于 一 组 实体 对 〈el，e2)， 所 有 它们 共同 出 现 的 句子 组 
WO =W, +W, (13) _ . ERAS 
RREA T={5,,52-.5,}, Attention 层 会 为 该 集合 计算 相应 的 权 
W, =W,.+W,, (14) 

Atk AWE, ALMAT A w tem), BMRB cine oa). PR, Re TREAT aE: 
位 置 向 量 P(w)、 上 文 信息 向 量 c(w) 、 下 文 信息 向 量 c (w), 元- 》 on (18) 
将 它们 进行 拼接 ， 最 终 得 到 包含 语义 特征 、 上 下 文 特征 及 位 a 
置 特征 的 向 量 表 示 : *%=[c(w);e(wi);c,(w);P(w)]JeR* 。 其 中 ， 本 文通 过 计算 句子 特征 表示 向 量 与 目标 关系 的 相似 度 来 
d=ditd*+d'+2*d?，d!、d’ 分 别 为 上 下 文 信息 向 量 的 维度 得 到 句子 的 权重 09。Bordes 等 人 0732013 年 提出 TransE 的 方 
1.2 基于 PCNN 的 特征 学 习 法 用 于 表示 知识 图 谱 中 的 实体 关系 ， 并 已 在 许多 知识 图 谱 任 
1.2.1 卷 积 务 中 取得 了 不 错 的 效果 。TransE 方法 将 知识 图 谱 中 的 关系 定 

在 关系 抽取 任务 中 ， 通 过 对 两 个 目标 实体 共同 出 现 的 名 义 为 头 实体 a 到 尾 实体 。 的 映射 转换 a+r=<e 。 基 于 这 样 的 思 
子 进行 学 习 ， 以 预测 它们 之 间 的 关系 。 为 此 ， 需 要 对 整个 句 想 ， 当 给 定 一 个 头 实体 entityl 时 ， 可 以 根据 知识 图 谱 中 的 关 
子 进行 特征 抽取 。 本 文采 用 擅长 提取 特征 的 卷 积 神经 网 络 来 系 表示 预测 出 相应 的 尾 实体 entity 2; 同样 地 ， 也 可 根据 关系 
对 向 量 表示 层 获取 到 的 所 有 特征 进行 学 习 ， 以 更 好 的 进行 关 表示 和 尾 实体 来 预测 出 头 实 体 。 本文 借 鉴 TransE 的 思想 来 表 
系 预 测 。 示 实 体 间 的 关系 : "=a-e ， 同 时 认为 当 实体 共 现 句 的 特征 表 

卷 积 层 通 过 对 滑动 窗口 内 的 向 量 进行 卷 积 操作 达到 特征 示 向 量 * 与 目标 关系 向 量 r 相似 度 越 高 时 ， 该 句子 能 正确 表 
FEI AN BCR. WF AF sate} CE x EGR 达 目 标 关 系 的 可 能 性 越 大 ， 其 注意 力 权 重 a 也 越 高 [12] AK 
习 到 的 词语 省 的 向 量 表示 ), ESO RREI Len] OUTSET 
拼接 ，1 为 卷 积 核 滑动 窗口 的 长 度 ， 则 有 卷 积 矩 阵 可 sRv 。 s (19) 

通常 为 了 学 习 到 多 种 特征 ， 模 型 中 会 使 用 多 个 卷 积 核 。 | 
a 中 使 用 了 n 个 卷 积 核 ， 则 卷 积 矩阵 为 其 中 : 由 是 句子 特征 向 量 s 与 预测 关系 向 量 r 的 匹配 分 数 ， 
W={W,WW,…,W,} ， 卷 积 操作 可 以 表示 如 下 : 通过 式 (20) 计算 求 得 。 

Cy =W@xim (1<i<n,?< j<t+l-1) (15) 中 =W, (tanh[s;;r])+ b, (20) 

考虑 到 当 j 接近 1 或 t+ 时 ， 滑 动 窗口 可 能 会 超出 句子 的 其 中 : [scr] 表示 两 个 向 量 的 垂直 连接 ，W, PERE, b 是 
边界 , 本文 将 所 有 超出 句子 范围 的 向 量 羡 (2r 力 思 均 设 定 为 偏 置 向 量 。 

FHE. 1.3.2 Softmax 层 

经 过 卷 积 操作 后 ， 可 以 得 到 卷 积 层 的 学 习 结 果 向 量 Softmax 是 一 种 多 分 类 模型 ， 它 是 逻辑 回归 模型 在 多 分 
C={c1,C2,..., Ca} o 类 问题 上 的 推广 。 在 关系 多 分 类 问题 中 ， 关 系 类 别 标签 
1.2.2 分 段 最 大 池 化 策略 应 多 个 不 同 的 值 。 添 加 了 注意 力 权 重 的 句子 特征 表示 被 送 

池 化 层 设置 在 卷 积 层 之 后 ， 对 卷 积 层 学 习 到 的 特征 进行 Softmax 层 ， 计 算 其 对 应 所 有 关系 类 型 的 匹配 分 数 : 
进一步 提取 ， 在 降低 神经 网 络 复杂 度 的 同时 ， 提 取出 主要 特 o=WT +b, (21) 
征 。 一 般 采 用 的 池 化 方法 是 最 大 池 化 策略 ， 该 策略 在 卷 积 层 其 中 : osR 表示 模型 的 输出 ，W eR 为 权重 和 矩阵，b, eR” 
每 个 卷 积 核 学 习 到 的 一 系列 特征 中 选取 最 大 值 ， 提 取出 最 有 是 偏 置 向 量 。 本 文 定义 第 i 个 关系 类 型 的 条 件 概率 为 
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(4|7:2)== 
i x EP (0, ) (22) 
H: T 表示 句子 向 量 的 集合 ，n 为 关系 总 数量 ，09 代表 模 
型 中 的 所 有 参数 的 集合 。 

假设 训练 数据 中 共有 m 个 句子 集合 , 每 个 集合 代表 一 类 
关系 。 于 是 ， 可 以 定义 目标 函数 如 下 : 
J(0)= Jogp (i039) (23) 


i=l 


ani 


2 ”实验 及 结果 分 析 


2.1 实验 设计 
2.1.1 实验 数据 

关系 抽取 研究 中 常用 的 知识 图 谱 是 Freebase， 它 是 一 个 
包含 4000 多 万 实体 、 上 万 个 属性 关系 、24 多 亿 个 事实 三 元 
组 的 大 规模 知识 图 谱 。 相 应 地 ,文本 语 料 选用 New York Times 
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2.1.2 评价 指标 

实体 关系 抽取 任务 中 通常 采用 准确 率 P、 召 回 率 R 和 
F-measure (F1) 作为 评价 指标 ， 它 们 的 计算 公式 如 下 : 
E 确 抽取 的 实体 关系 数量 


pai 


N 


P= THINS ABEL (24) 
“正确 抽取 的 实体 关系 数量 
R= 樟 林 中 的 实体 关系 总 数量 (25) 
2*P*R 
RPR (26) 


在 此 基础 上 ， 本文 也 采用 了 准确 率 一 召回 率 曲线 PRC) 
以 更 直观 地 展示 与 其 他 算法 的 对 比 结果 。 
2.1.3 词 向 量 

本 文 的 实体 关系 抽取 模型 中 ， 词 向 量 不 仅 是 提取 特征 的 
PCNN 输入 向 量 的 重要 部 分 ， 更 是 学 习 上 下 文 信息 的 循环 神 
经 网 络 GRU 的 输入 。 若 使 用 随机 初始 化 的 词 向 量 ， 模 型 训 
练 所 产生 的 效果 可 能 不 稳定 ， 不 如 通过 词 分 布 表示 模型 在 大 


(NYT) 数据 集 ， 该 数据 集 涵 盖 了 1987—2007 年 期 间 所 有 
的 纽约 时 报 新 闻 ， 并 且 包 含 了 大 量 Freebase 中 的 实体 ， 通 过 
远程 监督 得 到 数据 集 ， 可 以 为 人 们 提供 丰富 的 实体 共 现 句 。 
Freebase 和 New York Times 数据 集 非常 庞大 ， 模 型 的 训练 测 
试 并 不 需要 使 用 所 有 的 数据 。 本 文 使 用 2010 年 Riedel 等 人 
将 NYT 语 料 与 Freebase 对 齐 生成 的 实体 关系 标注 数据 集 来 
进行 模型 的 实验 。 

标注 好 的 NYT 语 料 分 为 两 部 分 ， 一 部 分 是 2005 一 2006 
年 间 的 新 闻 语 料 , 包含 281 270 组 实体 对 和 522 611 个 实体 共 
ME, 作为 模型 的 训练 数据 ; 另 一 部 分 是 2007 年 期 间 的 新 闻 
语 料 ， 包 含 96 678 组 实体 对 和 172 448 个 实体 共 现 句 ， 用 于 
模型 的 测试 。 语 料 中 的 关系 类 型 共 53 种 ,如 图 3 所 示 ， 其 中 
“NA” 表 示 两 个 实体 间 不 存在 关系 。 表 1 展示 了 数据 集中 的 
关系 实例 。 


n 


1 


/business/shopping_center_owner/shopping_centers_owned /location/province/capital 
/ocation/neighborhood/neighborhood_of /people/person/nationality 
/ocation/fr_region/capital /business/person/company 
/location/cn_province/capital /location/mx_state/capital 
/ocation/in_state/administrative_capital /pusiness/company/advisors 
/base/locations/countries/states_provinces_within /pusiness/shopping_center/owner 
/business/company/founders /people/person/ethnicity 
/ocation/country/languages_spoken /people/deceased_person/place_of_burial 
/people/person/place_of_birth /people/ethnicity/geographic_distribution 
/people/deceased_person/place_of_death /people/person/place_lived 
/ocation/it_region/capital /business/company/major_shareholders 
/people/family/members /broadcast/producer/location 
/ocation/us_state/capital /broadcast/content/location 
/location/us_county/county_seat /business/business_location/parent_company 
/people/profession/people_with_this_profession /\ocation/jp_prefecture/capital 
/location/br_state/capital /film/film/featured_film_locations 
/location/in_state/legislative_capital /people/place_of interment/interred_here 
/sports/sports_team/location /\ocation/de_state/capital 
/people/person/religion /people/person/profession 
Aocation/in_state/judicial_capital /pusiness/company/locations 
/business/company_advisor/companies_advised /\ocation/country/capital 
/location/location/contains 
/location/country/administrative_divisions 
/people/person/children 
/film/film_location/featured_in_films 
/film/film_festival/location 


/people/family/country 
/time/event/locations 
/business/company/place_founded 
/ocation/administrative_division/country 
/people/ethnicity/included_in_group 

NA 


图 3 数据 集中 的 关系 类 型 
Fig. 3 Relation types in dataset 
表 1 数据 集中 的 关系 实例 


规模 语 料 上 训练 的 词 向 量 。Word2vec03 是 Google 公司 于 
2013 年 开源 的 词 向 量 训 练 工 具 ， 它 实现 了 skip-gram F 
CROW 模型 。 其 中 skip-gram 模型 在 表达 词语 语义 关系 方面 
效果 更 优 一 些 。 因 此 ， 本 文采 用 word2vec 工具 和 Skip-gram 
模型 在 New York Times 文本 数据 集 上 进行 英文 词 向 量 的 j 
练 学 习 。 
2.1.4 实验 参数 

本 文 使 用 交叉 验证 的 方法 在 训练 集 上 对 模型 进行 调 优 。 
模型 中 各 参数 的 范围 分 别 设 定 为 : 词 分 布 表示 向 量 的 维度 在 
{50,100,200,300} 中 取 值 ， 位 置 特征 向 量 的 维度 在 {5,10,20} 中 选 
择 ， 卷 积 滑动 窗口 大 小 的 取 值 为 {3,5,7} ， 卷 积 核 的 数量 选择 
为 {50,100,150,200,250} ， 小 批量 梯度 下 降 的 学 习 速 率 取 值 为 
{0.1,0.01,0.001} ， 每 个 批 次 的 数量 取 值 为 {50,100,150,200} 。 经 过 
实验 ， 模 型 最 终 的 参数 设置 为 如 表 2 所 示 。 

表 2 实验 参数 设置 


Table 2 Experimental parameter settings 


oO 


tu 


参数 参数 值 
词 向 量 维度 50 
上 下 文 信息 向 量 维度 50 
位 置 特 征 向 量 维度 5 
卷 积 滑动 窗口 大 小 3 
卷 积 核 数量 200 
批 次 数量 50 
学 习 速 率 0.01 


Table 1 Instances in dataset 

实体 Aid/ ”实体 A/ 
关系 句子 
实体 Bid K B 

Im.OccvVX queens . ...into the fatal crash of a 

/location/location ou 

. passenger jet in belle_harbor , 
m.05gf08belle_harbor /contains 
queens, ... 
m.05kkh Ohio /location/location . . 
i . where : celina , ohio . 

m.Oy_kj celin /contains 


2.1.5 加 入 双向 GRU 的 影响 
本 文 提出 了 将 擅长 学 习 远 距离 序列 依赖 信息 且 网 络 结构 
简单 的 循环 神经 网 络 Bi-GRU 加 入 到 向 量 表示 阶段 ， 分 别 通 
过 前 向 、 后 向 GRU 学 习 词 语 的 上 文 信息 向 量 和 下 文 信息 向 
量 ， 为 后 续 的 卷 积 学 习 提供 了 丰富 的 特征 信息 。 为 了 验证 本 
文 方法 的 有 效 性 ， 设 计 一 组 基于 分 段 卷 积 神经 网 络 
(PCNN_ATT) 与 加 入 双向 GRU (GRU_PCNN_ATT) 的 实 
体 关 系 抽取 对 比 实验 。 为 了 方便 实验 结果 的 比较 ， 本 文 为 单 
ARAI PCNN 模型 也 加 入 基于 句子 级 别 的 注意 力 机 制 。 此 外 ， 
PCNN_ATT 模型 的 向 量 输入 由 词 向 量 和 位 置 特征 向 量 组 成 ， 
而 GRU_PCNN_ATT 模型 的 向 量 输入 不 仅 包 括 词 向 量 和 位 置 
特征 向 量 ， 还 包括 经 由 双向 GRU 获得 的 上 下 文 信息 向 量 。 
2.1.6 加 入 和 句子 级 别 注 意 力 机 制 的 影响 
本 文 提 出 了 加 入 基于 句子 级 别 的 Attention 机 制 , 对 每 个 
句子 计算 其 注意 力 权 重 , 增 大 正确 表达 目标 关系 语句 的 权 习 
同时 减 小 错误 标注 语句 的 权重 ， 降 低 其 对 模型 训练 的 干扰 。 


mi 
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fu 
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本 文 设计 实验 对 比 GRU_PCNN_ONE、GRU_PCNN_AV 


GRU_PCNN_ATT 三 种 情况 下 的 实体 关系 抽取 效果 。 其 中 ， 


G、 


GRU_PCNN_ONE 是 指 对 于 一 组 实体 对 ， 在 它们 的 
合 中 随机 选择 一 个 句子 进行 关系 的 学 习 ; 


SE 
GRU_PCNN_AVG 


aur 


是 指 赋 予 一 组 实体 对 的 所 有 共 现 句 相 同 的 权重 去 参与 关系 的 


学 习 ; GRU_PCNN_ATT 是 本 文 提出 的 基于 句子 级 别 注 意 力 
机 制 的 实体 关系 抽取 模型 ， 对 每 一 个 实体 共 现 语句 分 别 计算 


注意 力 权重 ， 每 个 句子 以 相应 的 权重 去 参与 关系 的 学 习 。 


2.2 实验 结果 分 析 

2.2.1 双向 GRU 影响 分 析 
在 表 3 和 图 4 中 可 以 看 到 ， 加 入 双向 GRU 的 关系 
模型 比 普 通 的 分 段 卷 积 神经 网 络 模型 的 效果 更 优 ， 
可 率 范围 内 ，GRU_PCNN_ATT 方法 的 


抽取 
在 整个 召 
确 率 比 基于 分 上 


MAS 


积 神经 网 络 (PCNN_ATT) 方 法 大 约 要 高 出 


0.05. 


这 是 因为 


GRU 作为 一 种 循环 神经 网 络 ， 


tt 备 优秀 的 记忆 序列 特征 的 能 


J: 同时 ， 它 又 像 LSTM 一 样 ， 善 于 学 习 长 距离 依赖 信息 。 


实验 语 料 中 存在 许多 长 依赖 语句 ， 仅 靠 滑动 窗口 获得 局 部 上 


下 文 信息 的 PCNN_ATT 模型 效果 不 能 
而 
丰富 的 上 下 文 特 征 ， 


其 结果 便 更 优 一 些 。 


有 捉 到 长 依赖 信息 , 然 
记忆 人 能力 的 双向 GRU_PCNN_ATT 模型 却 可 以 学 习 到 
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表 4 注意 力 机 制 实验 结果 
Table 4 Experimental results of adding Attention 


测试 集 ONE/% THREE/% ALL/% 
GRU_PCNN_ONE 65.8 67.6 69.1 
GRU_PCNN_AVG 65.3 67.5 68.2 
GRU_PCNN_ATT 68.1 71.9 72.5 


2.2.3 GRU_PCNN_ATT 方法 验证 及 结果 分 析 
本 文 的 实体 关系 抽取 方法 与 Mintz、MultiR 、MIML 这 三 


种 
表 
论 
AR 


经 典 


3~5 


的 远程 监督 方法 的 实验 对 比 结果 如 表 5 和 图 5 所 示 。 
展示 了 中 文 语 料 下 各 方法 的 实验 结果 ， 


可 以 看 出 , 不 


是 准确 率 还 是 召回 率 ， 本 文 方法 丝 远 高 于 三 种 传统 远程 监 


方法 。 图 5 中 展示 了 英文 语 料 每 种 方法 的 PRC 


看 
的 


a 


设 
的 
相 


NLP 


当 召 回 率 大 于 0.1 时 ， 基 于 特征 的 关系 


出 在 整个 召回 率 范围 
准确 率 均 比 三 种 基于 特征 的 传统 远程 监督 方法 高 出 很 多 。 
由 取 方法 ; 


曲线 , 可 以 
内 ， 本 文 方法 (GRU_PCNN_ATT) 


ETARKI 


降 ， 而 本 文 的 方法 还 能 取得 不 错 的 准确 率 。 这 是 因为 人 
计 的 特征 不 能 够 准确 把 握 句 子 的 语义 信息 ， 而 且 标注 特征 


NLP 工具 不 可 避免 的 会 产生 错误 影响 到 关系 抽取 的 效果 。 
比 来 说 ， 本 文 基于 神经 网 络 的 关系 抽取 方法 可 以 避免 一 些 


工具 的 错误 ， 更 加 准确 地 学 习 到 句子 的 语义 信息 。 


表 3 加 入 Bi-GRU 的 实验 对 比 结果 表 5 与 传统 远程 监督 方法 对 比 结果 
Table 3 Experimental results of adding Bi-GRU Table 5 Comparison with traditional distant supervision methods 
方法 准确 率 〈%) ”召回 率 (%) Fl 值 (%) 方法 准确 率 (%) ”召回 率 (%) ”Fl 值 (%) 
CNN_ATT 70.23 47.51 56.68 Mintz 62.35 36.82 46.30 
GRU_PCNN_ATT 72.5 50.08 59.24 MultiR 65.43 41.31 50.64 
10 MIML 66.52 43.70 52.75 
PEE E GRU_PCNN_ATT 72.5 50.08 59.24 
Pe — GRU_PCNN_ATT 
1.0 
— GRU_PCNN_ATT 
0.8 aad — MultiR 
i — MIML 
0.7 ial — Mintz 
5 0.6 0.74 
0.5 E 0.6 
È 
0.4 0.5 
0.3 o3 
本 0.3 
“0.00 0.05 010 015 020 025 030 035 0.40 
Recall 0.2 T T T + + T + 
0.00 005 010 015 0.20 025 030 035 0.40 
图 4 加 入 Bi-GRU 的 实验 对 比 结果 i 
Fig.4 Experimental results of adding Bi-GRU 图 5 与 传统 远程 监督 方法 对 比 结果 
2.2.2 注意 力 机 制 的 影响 分 析 Fig.5 Comparison with traditional distant supervision methods 
基于 句子 级 别 注意 力 机 制 的 实验 结果 如 表 4 所 示 ， 表 中 3 ”结束 语 
显示 的 数据 为 准确 率 值 ， 单 位 均 为 “%”。 可 以 看 出 ， 不 论 测 “A 
试 集 大 小 如 何 ， 本 文 加 入 注意 力 机 制 的 方法 本 文 基于 对 现 有 关系 抽取 方法 上 所 存在 缺陷 的 分 析 提 出 
( GRU_PCNN_ATT ) 效果 均 高 出 随机 选择 了 基于 循环 卷 积 神经 网 络 和 注意 力 机 制 的 实体 关系 抽取 方 
(GRU_PCNN_ONE) 和 平均 权重 (GRU_PCNN_AVG) 约 ” 法 ， 该 方法 通过 双向 GRU 模型 来 学 习 词语 的 上 下 文 信息 ， 
3%-4%， 说 明基 于 句子 级 别 注意 力 机 制 的 加 入 有 助 于 实体 关 使 用 循环 卷 积 神经 网 络 获取 更 细 粒 度 的 特征 信息 ， 并 提取 到 
系 抽 取 准 确 率 的 提升 。 此 外 ， 由 表 中 数据 可 以 看 出 使 用 平均 ”实体 间 的 结构 信息 ， 同 时 加 入 基于 句子 级 别 的 注意 力 机 制 。 
权重 的 模型 (GRU_PCNN_AVG) 准确 率 要 低 许 多 ， 尤 其 是 通过 一 系列 实验 对 比 ， 证 明了 本 文 方法 能 有 效 提 升 实体 
当 测 试 集 为 全 部 语句 时 。 相 对 于 随机 选择 的 模型 关系 抽取 的 效果 。 
(GRU_PCNN_ONE) 而 言 ， 使 用 平均 权重 的 模型 虽然 学 习 : 
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